1
Dari Hitungan ke Konteks: Evolusi NLP
AI030Lesson 3
00:00

Evolusi NLP mewakili perubahan mendasar dari memperlakukan bahasa sebagai simbol terpisah dan terisolasi menjadi pemetaannya ke dalam ruang vektor kontinu berdimensi banyak. Kita telah beralih dari representasi sederhana representasi berbasis fitur menuju peta semantik yang mendalam.

TF-IDF (Jarang)Dimensi = Ukuran VokabWord2Vec (Tersebar)RajaRatuApelDimensi = Fitur Tersembunyi

Perubahan dalam Representasi

  • Era Statistik (Jarang): NLP awal bergantung pada algoritma TF-IDF. Meskipun efektif untuk pencarian, sistem ini mengalami "hukuman ketiadaan data". Dalam sistem TF-IDF, kata "Dokter" dan "Dokter" adalah vektor ortogonalβ€”secara matematis, mereka tidak memiliki hubungan apapun.
  • Revolusi Tersebar (NNLM & Word2Vec): Model Bahasa Jaringan Saraf mengenalkan vektor padat. Word2Vec (Skip-gram/CBOW) belajar bahwa kata-kata yang muncul dalam konteks serupa seharusnya menjadi tetangga spasial.
  • Statistik Global (GloVe): Vektor Global mengisi celah dengan menganalisis kemunculan bersama secara global di seluruh korpus, memastikan jarak mencerminkan kesamaan semantik secara matematis.
Wawasan Mendalam
Transisi dari menghitung kemunculan menjadi memprediksi konteks memungkinkan model menangkap nuansa. Representasi "Tersebar" ini berarti makna suatu kata tersebar di ratusan dimensi vektor, masing-masing dapat mewakili fitur semantik tersembunyi seperti jenis kelamin, kerajaan, atau konteks medis.